22 de septiembre de 2025Español

Guía completa para fusionar y unir DataFrames en Python Pandas, cubriendo estrategias como uniones internas, externas, izquierdas y derechas con ejemplos prácticos.

Python Pandas Merging: Dominando Estrategias de Unión de DataFrames para el Análisis de Datos

La manipulación de datos es un aspecto crucial del análisis de datos, y la biblioteca Pandas en Python proporciona herramientas potentes para este propósito. Entre estas herramientas, la fusión y unión de DataFrames son operaciones esenciales para combinar conjuntos de datos basándose en columnas o índices comunes. Esta guía completa explora varias estrategias de unión de DataFrames en Pandas, equipándolo con el conocimiento para combinar y analizar datos de diferentes fuentes de manera efectiva.

Comprendiendo la Fusión y Unión de DataFrames

La fusión y unión de DataFrames implican combinar dos o más DataFrames en un solo DataFrame basándose en una columna o índice compartido. La diferencia principal entre `merge` y `join` es que `merge` es una función de la biblioteca Pandas y típicamente une DataFrames por columnas, mientras que `join` es un método de DataFrame que une DataFrames principalmente por índices, aunque también puede usarse con columnas.

Conceptos Clave

DataFrames: Estructuras de datos etiquetadas bidimensionales con columnas de tipos potencialmente diferentes.
Columnas/Índices Comunes: Columnas o índices que comparten el mismo nombre y tipo de datos entre DataFrames, sirviendo como base para la fusión/unión.
Tipos de Unión: Diferentes estrategias para manejar filas no coincidentes durante el proceso de fusión/unión, incluyendo uniones internas, externas, izquierdas y derechas.

Fusión de DataFrames con `pd.merge()`

La función `pd.merge()` es la herramienta principal para fusionar DataFrames basándose en columnas. Ofrece una forma flexible de combinar datos basándose en una o más columnas comunes.

Sintaxis

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

Parámetros

left: El DataFrame izquierdo a fusionar.
right: El DataFrame derecho a fusionar.
how: El tipo de fusión a realizar ('inner', 'outer', 'left', 'right'). El valor predeterminado es 'inner'.
on: El nombre de la(s) columna(s) para unir. Deben encontrarse en ambos DataFrames.
left_on: El nombre de la(s) columna(s) en el DataFrame izquierdo a usar como claves de unión.
right_on: El nombre de la(s) columna(s) en el DataFrame derecho a usar como claves de unión.
left_index: Si es True, usa el índice del DataFrame izquierdo como la(s) clave(s) de unión.
right_index: Si es True, usa el índice del DataFrame derecho como la(s) clave(s) de unión.
sort: Ordena el DataFrame resultante lexicográficamente por las claves de unión. El valor predeterminado es False.
suffixes: Una tupla de sufijos de cadena a aplicar a nombres de columnas superpuestos. El valor predeterminado es ('_x', '_y').
copy: Si es False, evita copiar datos al nuevo DataFrame siempre que sea posible. El valor predeterminado es True.
indicator: Si es True, añade una columna llamada '_merge' que indica la fuente de cada fila.
validate: Comprueba si la fusión es del tipo especificado. "one_to_one", "one_to_many", "many_to_one", "many_to_many".

Tipos de Unión Explicados

El parámetro `how` en `pd.merge()` determina el tipo de unión realizada. Los diferentes tipos de unión manejan las filas no coincidentes de diferentes maneras.

Unión Interna (Inner Join)

Una unión interna devuelve solo las filas que tienen valores coincidentes en ambos DataFrames basándose en las claves de unión. Las filas con valores no coincidentes se excluyen del resultado.

Ejemplo:

Considera dos DataFrames:

            import pandas as pd

# DataFrame 1: Órdenes de Clientes
df_orders = pd.DataFrame({
 'order_id': [1, 2, 3, 4, 5],
 'customer_id': [101, 102, 103, 104, 105],
 'product_id': [1, 2, 1, 3, 2],
 'quantity': [2, 1, 3, 1, 2]
})

# DataFrame 2: Información de Clientes
df_customers = pd.DataFrame({
 'customer_id': [101, 102, 103, 106],
 'customer_name': ['Alice', 'Bob', 'Charlie', 'David'],
 'country': ['USA', 'Canada', 'UK', 'Australia']
})

# Unión Interna
df_inner = pd.merge(df_orders, df_customers, on='customer_id', how='inner')
print(df_inner)

Salida:

               order_id  customer_id  product_id  quantity customer_name country
0         1          101           1         2         Alice     USA
1         2          102           2         1           Bob  Canada
2         3          103           1         3       Charlie      UK

En este ejemplo, la unión interna combina los DataFrames `df_orders` y `df_customers` basándose en la columna `customer_id`. Solo los clientes que han realizado pedidos se incluyen en el resultado. El cliente 'David' (customer_id 106) se excluye porque no tiene pedidos.

Unión Externa (Outer Join / Full Outer Join)

Una unión externa devuelve todas las filas de ambos DataFrames, incluidas las filas no coincidentes. Si una fila no tiene una coincidencia en el otro DataFrame, las columnas correspondientes contendrán valores `NaN` (Not a Number).

Ejemplo:

            # Unión Externa
df_outer = pd.merge(df_orders, df_customers, on='customer_id', how='outer')
print(df_outer)

Salida:

               order_id  customer_id  product_id  quantity customer_name    country
0       1.0          101         1.0       2.0         Alice        USA
1       2.0          102         2.0       1.0           Bob     Canada
2       3.0          103         1.0       3.0       Charlie         UK
3       4.0          104         3.0       1.0           NaN        NaN
4       5.0          105         2.0       2.0           NaN        NaN
5       NaN          106         NaN       NaN         David   Australia

La unión externa incluye todos los clientes y todos los pedidos. Los clientes 104 y 105 tienen pedidos pero no información de cliente, y el cliente 106 tiene información de cliente pero no pedidos. Los valores faltantes se representan como `NaN`.

Unión Izquierda (Left Join)

Una unión izquierda devuelve todas las filas del DataFrame izquierdo y las filas coincidentes del DataFrame derecho. Si una fila en el DataFrame izquierdo no tiene una coincidencia en el DataFrame derecho, las columnas correspondientes del DataFrame derecho contendrán valores `NaN`.

Ejemplo:

            # Unión Izquierda
df_left = pd.merge(df_orders, df_customers, on='customer_id', how='left')
print(df_left)

Salida:

               order_id  customer_id  product_id  quantity customer_name country
0         1          101           1         2         Alice     USA
1         2          102           2         1           Bob  Canada
2         3          103           1         3       Charlie      UK
3         4          104           3         1           NaN     NaN
4         5          105           2         2           NaN     NaN

La unión izquierda incluye todos los pedidos de `df_orders`. Los clientes 104 y 105 tienen pedidos pero no información de cliente, por lo que las columnas `customer_name` y `country` son `NaN` para esos pedidos.

Unión Derecha (Right Join)

Una unión derecha devuelve todas las filas del DataFrame derecho y las filas coincidentes del DataFrame izquierdo. Si una fila en el DataFrame derecho no tiene una coincidencia en el DataFrame izquierdo, las columnas correspondientes del DataFrame izquierdo contendrán valores `NaN`.

Ejemplo:

            # Unión Derecha
df_right = pd.merge(df_orders, df_customers, on='customer_id', how='right')
print(df_right)

Salida:

               order_id  customer_id  product_id  quantity customer_name    country
0       1.0          101         1.0       2.0         Alice        USA
1       2.0          102         2.0       1.0           Bob     Canada
2       3.0          103         1.0       3.0       Charlie         UK
3       NaN          106         NaN       NaN         David   Australia

La unión derecha incluye todos los clientes de `df_customers`. El cliente 106 tiene información de cliente pero no pedidos, por lo que las columnas `order_id`, `product_id` y `quantity` son `NaN` para ese cliente.

Unión de DataFrames con `df.join()`

El método `df.join()` se utiliza principalmente para unir DataFrames basándose en sus índices. También puede usarse para unir por columnas, pero generalmente es más conveniente usar `pd.merge()` para uniones basadas en columnas.

Sintaxis

DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)

Parámetros

other: El otro DataFrame a unir.
on: Nombre de la columna para unir. Debe ser pasado si el índice no se usa como clave de unión.
how: Cómo manejar la operación de los conjuntos izquierdo y derecho. El valor predeterminado es 'left'.
lsuffix: Sufijo a usar del DataFrame izquierdo para anular nombres de columnas superpuestos.
rsuffix: Sufijo a usar del DataFrame derecho para anular nombres de columnas superpuestos.
sort: Ordena el DataFrame resultante lexicográficamente por las claves de unión. El valor predeterminado es False.

Unión por Índice

Al unir por índice, el parámetro `on` no se usa.

Ejemplo:

            # DataFrame 1: Órdenes de Clientes con ID de Cliente como Índice
df_orders_index = df_orders.set_index('customer_id')

# DataFrame 2: Información de Clientes con ID de Cliente como Índice
df_customers_index = df_customers.set_index('customer_id')

# Unión por Índice (Unión Izquierda)
df_join_index = df_orders_index.join(df_customers_index, how='left')
print(df_join_index)

Salida:

               order_id  product_id  quantity customer_name country
customer_id                                        
101                 1           1         2         Alice     USA
102                 2           2         1           Bob  Canada
103                 3           1         3       Charlie      UK
104                 4           3         1           NaN     NaN
105                 5           2         2           NaN     NaN

En este ejemplo, el método `join()` se usa para realizar una unión izquierda en el índice (`customer_id`). El resultado es similar a la unión izquierda usando `pd.merge()`, pero la unión se basa en el índice en lugar de una columna.

Unión por Columna

Para unir por una columna usando `df.join()`, necesitas especificar el parámetro `on`.

Ejemplo:

            # Unión por una columna
df_join_column = df_orders.join(df_customers.set_index('customer_id'), on='customer_id', how='left')
print(df_join_column)

Salida:

               order_id  customer_id  product_id  quantity customer_name country
0         1          101           1         2         Alice     USA
1         2          102           2         1           Bob  Canada
2         3          103           1         3       Charlie      UK
3         4          104           3         1           NaN     NaN
4         5          105           2         2           NaN     NaN

Este ejemplo demuestra la unión de `df_orders` con `df_customers` usando la columna `customer_id`. Ten en cuenta que `customer_id` se establece como índice en `df_customers` antes de realizar la unión.

Manejo de Columnas Superpuestas

Al fusionar o unir DataFrames, es común encontrar nombres de columnas superpuestos (columnas con el mismo nombre en ambos DataFrames). Pandas proporciona el parámetro `suffixes` en `pd.merge()` y los parámetros `lsuffix` y `rsuffix` en `df.join()` para manejar estas situaciones.

Uso de `suffixes` en `pd.merge()`

El parámetro `suffixes` te permite especificar sufijos que se añadirán a los nombres de columnas superpuestos para distinguirlos.

Ejemplo:

            # DataFrame 1: Información de Producto
df_products1 = pd.DataFrame({
 'product_id': [1, 2, 3],
 'product_name': ['Product A', 'Product B', 'Product C'],
 'price': [10, 20, 15]
})

# DataFrame 2: Información de Producto (con precios potencialmente actualizados)
df_products2 = pd.DataFrame({
 'product_id': [1, 2, 4],
 'product_name': ['Product A', 'Product B', 'Product D'],
 'price': [12, 18, 25]
})

# Fusión con sufijos
df_merged_suffixes = pd.merge(df_products1, df_products2, on='product_id', suffixes=('_old', '_new'))
print(df_merged_suffixes)

Salida:

               product_id product_name_old  price_old product_name_new  price_new
0           1        Product A         10        Product A         12
1           2        Product B         20        Product B         18

En este ejemplo, las columnas `product_name` y `price` están presentes en ambos DataFrames. El parámetro `suffixes` añade los sufijos `_old` y `_new` para distinguir las columnas de los DataFrames izquierdo y derecho, respectivamente.

Uso de `lsuffix` y `rsuffix` en `df.join()`

Los parámetros `lsuffix` y `rsuffix` proporcionan funcionalidad similar para `df.join()`. `lsuffix` se añade a las columnas superpuestas del DataFrame izquierdo, y `rsuffix` a las del derecho.

Ejemplo:

            # Unión con lsuffix y rsuffix
df_products1_index = df_products1.set_index('product_id')
df_products2_index = df_products2.set_index('product_id')
df_joined_suffixes = df_products1_index.join(df_products2_index, lsuffix='_old', rsuffix='_new', how='outer')
print(df_joined_suffixes)

Salida:

                      product_name_old  price_old product_name_new  price_new
product_id                                                     
1                 Product A       10.0        Product A       12.0
2                 Product B       20.0        Product B       18.0
3                 Product C       15.0            NaN        NaN
4                       NaN        NaN        Product D       25.0

Ejemplos Prácticos y Casos de Uso

La fusión y unión de DataFrames se utilizan ampliamente en varios escenarios de análisis de datos. Aquí hay algunos ejemplos prácticos:

Combinando Datos de Ventas con Información de Productos

Un caso de uso común es combinar datos de ventas con información de productos. Suponga que tiene un DataFrame que contiene transacciones de ventas y otro DataFrame que contiene detalles de productos. Puede fusionar estos DataFrames para enriquecer los datos de ventas con información de productos.

Ejemplo:

            # Datos de Transacciones de Ventas
df_sales = pd.DataFrame({
 'transaction_id': [1, 2, 3, 4, 5],
 'product_id': [101, 102, 103, 101, 104],
 'quantity': [2, 1, 3, 1, 2],
 'sales_date': ['2023-01-15', '2023-02-20', '2023-03-10', '2023-04-05', '2023-05-01']
})

# Datos de Información de Productos
df_products = pd.DataFrame({
 'product_id': [101, 102, 103, 104],
 'product_name': ['Laptop', 'Mouse', 'Keyboard', 'Monitor'],
 'category': ['Electronics', 'Electronics', 'Electronics', 'Electronics'],
 'price': [1200, 25, 75, 300]
})

# Fusión de Datos de Ventas con Información de Productos
df_sales_enriched = pd.merge(df_sales, df_products, on='product_id', how='left')
print(df_sales_enriched)

Salida:

               transaction_id  product_id  quantity sales_date product_name     category   price
0               1         101         2   2023-01-15       Laptop  Electronics  1200
1               2         102         1   2023-02-20        Mouse  Electronics    25
2               3         103         3   2023-03-10     Keyboard  Electronics    75
3               4         101         1   2023-04-05       Laptop  Electronics  1200
4               5         104         2   2023-05-01      Monitor  Electronics   300

El DataFrame resultante `df_sales_enriched` contiene las transacciones de ventas junto con la información del producto correspondiente, lo que permite un análisis más detallado de las tendencias de ventas y el rendimiento del producto.

Combinando Datos de Clientes con Información Demográfica

Otro caso de uso común es combinar datos de clientes con información demográfica. Esto permite analizar el comportamiento del cliente basándose en factores demográficos.

Ejemplo:

            # Datos de Clientes
df_customers = pd.DataFrame({
 'customer_id': [1, 2, 3, 4, 5],
 'customer_name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
 'city': ['New York', 'London', 'Tokyo', 'Sydney', 'Berlin']
})

# Datos de Información Demográfica
df_demographics = pd.DataFrame({
 'city': ['New York', 'London', 'Tokyo', 'Sydney', 'Berlin'],
 'population': [8419000, 8982000, 13960000, 5312000, 3769000],
 'average_income': [75000, 65000, 85000, 90000, 55000]
})

# Fusión de Datos de Clientes con Información Demográfica
df_customer_demographics = pd.merge(df_customers, df_demographics, on='city', how='left')
print(df_customer_demographics)

Salida:

               customer_id customer_name      city  population  average_income
0            1         Alice  New York     8419000           75000
1            2           Bob    London     8982000           65000
2            3       Charlie     Tokyo    13960000           85000
3            4         David    Sydney     5312000           90000
4            5           Eve    Berlin     3769000           55000

El DataFrame resultante `df_customer_demographics` contiene datos de clientes junto con la información demográfica de sus ciudades respectivas, lo que permite el análisis del comportamiento del cliente basado en la demografía de la ciudad.

Análisis de Datos Globales de Cadena de Suministro

La fusión de Pandas es valiosa para analizar datos globales de cadena de suministro, donde la información a menudo se distribuye en varias tablas. Por ejemplo, vincular datos de proveedores, información de envío y cifras de ventas puede revelar cuellos de botella y optimizar la logística.

Ejemplo:

            # Datos de Proveedores
df_suppliers = pd.DataFrame({
 'supplier_id': [1, 2, 3],
 'supplier_name': ['GlobalTech', 'EuroParts', 'AsiaSource'],
 'location': ['Taiwan', 'Germany', 'China']
})

# Datos de Envío
df_shipments = pd.DataFrame({
 'shipment_id': [101, 102, 103, 104],
 'supplier_id': [1, 2, 3, 1],
 'destination': ['USA', 'Canada', 'Australia', 'Japan'],
 'shipment_date': ['2023-01-10', '2023-02-15', '2023-03-20', '2023-04-25']
})


# Fusión de Datos de Proveedores y Envíos
df_supply_chain = pd.merge(df_shipments, df_suppliers, on='supplier_id', how='left')

print(df_supply_chain)

Salida:

               shipment_id  supplier_id destination shipment_date supplier_name location
0          101            1         USA    2023-01-10     GlobalTech   Taiwan
1          102            2      Canada    2023-02-15      EuroParts  Germany
2          103            3   Australia    2023-03-20     AsiaSource    China
3          104            1       Japan    2023-04-25     GlobalTech   Taiwan

Técnicas Avanzadas de Fusión

Fusión por Múltiples Columnas

Puede fusionar DataFrames basándose en múltiples columnas pasando una lista de nombres de columnas al parámetro `on`.

Ejemplo:

            # DataFrame 1
df1 = pd.DataFrame({
 'product_id': [1, 1, 2, 2],
 'color': ['red', 'blue', 'red', 'blue'],
 'quantity': [10, 15, 20, 25]
})

# DataFrame 2
df2 = pd.DataFrame({
 'product_id': [1, 1, 2, 2],
 'color': ['red', 'blue', 'red', 'blue'],
 'price': [5, 7, 8, 10]
})

# Fusión por múltiples columnas
df_merged_multiple = pd.merge(df1, df2, on=['product_id', 'color'], how='inner')
print(df_merged_multiple)

Salida:

               product_id color  quantity  price
0           1   red        10      5
1           1  blue        15      7
2           2   red        20      8
3           2  blue        25     10

Fusión con Nombres de Columna Diferentes

Si las columnas de unión tienen nombres diferentes en los dos DataFrames, puede usar los parámetros `left_on` y `right_on` para especificar los nombres de columna a usar para la fusión.

Ejemplo:

            # DataFrame 1
df1 = pd.DataFrame({
 'product_id': [1, 2, 3],
 'product_name': ['Product A', 'Product B', 'Product C']
})

# DataFrame 2
df2 = pd.DataFrame({
 'id': [1, 2, 4],
 'price': [10, 20, 25]
})

# Fusión con nombres de columna diferentes
df_merged_different = pd.merge(df1, df2, left_on='product_id', right_on='id', how='left')
print(df_merged_different)

Salida:

               product_id product_name   id   price
0           1    Product A  1.0    10.0
1           2    Product B  2.0    20.0
2           3    Product C  NaN     NaN

Uso de `indicator` para Análisis de Fusión

El parámetro `indicator` en `pd.merge()` añade una columna llamada `_merge` al DataFrame resultante, que indica la fuente de cada fila. Esto es útil para comprender qué filas coincidieron y cuáles no.

Ejemplo:

            # Fusión con indicador
df_merged_indicator = pd.merge(df_orders, df_customers, on='customer_id', how='outer', indicator=True)
print(df_merged_indicator)

Salida:

               order_id  customer_id  product_id  quantity customer_name    country      _merge
0       1.0          101         1.0       2.0         Alice        USA        both
1       2.0          102         2.0       1.0           Bob     Canada        both
2       3.0          103         1.0       3.0       Charlie         UK        both
3       4.0          104         3.0       1.0           NaN        NaN   left_only
4       5.0          105         2.0       2.0           NaN        NaN   left_only
5       NaN          106         NaN       NaN         David   Australia  right_only

La columna `_merge` indica si la fila proviene de ambos DataFrames (`both`), solo del DataFrame izquierdo (`left_only`), o solo del DataFrame derecho (`right_only`).

Validación de Tipos de Fusión

El parámetro `validate` asegura que la operación de fusión se alinee con los tipos de relación esperados entre los DataFrames (por ejemplo, 'one_to_one', 'one_to_many'). Esto ayuda a prevenir inconsistencias y errores en los datos.

Ejemplo:

            # Ejemplo con validación uno a uno
df_users = pd.DataFrame({
 'user_id': [1, 2, 3],
 'username': ['john_doe', 'jane_smith', 'peter_jones']
})

df_profiles = pd.DataFrame({
 'user_id': [1, 2, 3],
 'profile_description': ['Software Engineer', 'Data Scientist', 'Project Manager']
})

# Realizando una fusión uno a uno con validación
merged_df = pd.merge(df_users, df_profiles, on='user_id', validate='one_to_one')

print(merged_df)

Si la fusión viola la validación especificada (por ejemplo, una relación muchos a uno cuando se especifica 'one_to_one'), se generará un `MergeError`, alertándole sobre posibles problemas de integridad de datos.

Consideraciones de Rendimiento

La fusión y unión de DataFrames pueden ser computacionalmente costosas, especialmente para conjuntos de datos grandes. Aquí hay algunos consejos para mejorar el rendimiento:

Use el tipo de unión apropiado: Elegir el tipo de unión correcto puede impactar significativamente el rendimiento. Por ejemplo, si solo necesita filas coincidentes, use una unión interna.
Indexe las columnas de unión: Indexar las columnas de unión puede acelerar el proceso de fusión.
Use tipos de datos apropiados: Asegúrese de que las columnas de unión tengan tipos de datos compatibles.
Evite copias innecesarias: Establezca `copy=False` en `pd.merge()` y `df.join()` para evitar la creación de copias innecesarias de los datos.

Conclusión

La fusión y unión de DataFrames son operaciones fundamentales en el análisis de datos. Al comprender los diferentes tipos y técnicas de unión, puede combinar y analizar datos de varias fuentes de manera efectiva, descubriendo información valiosa y promoviendo la toma de decisiones informada. Desde combinar datos de ventas con información de productos hasta analizar cadenas de suministro globales, dominar estas técnicas lo empoderará para abordar tareas complejas de manipulación de datos con confianza. Recuerde considerar las implicaciones de rendimiento al trabajar con grandes conjuntos de datos y aprovechar las funciones avanzadas como los parámetros `indicator` y `validate` para un análisis más robusto y perspicaz.